2025. gada 23. septembrisLatviešu

Izpētiet digitālā audio pasauli ar Python. Šis visaptverošais ceļvedis aptver skaņas analīzi un sintēzi, galvenās bibliotēkas kā Librosa un SciPy, un praktiskus kodu piemērus izstrādātājiem un entuziastiem.

Python audio apstrāde: Padziļināts ieskats skaņas analīzē un sintēzē

Skaņa ir cilvēka pieredzes neatņemama sastāvdaļa. No mūzikas, ko mīlam, līdz balsīm, ko atpazīstam, un mūsu vides fona trokšņiem, audio dati ir bagātīgi, sarežģīti un dziļi nozīmīgi. Digitālajā laikmetā spēja manipulēt un saprast šos datus ir kļuvusi par kritisku prasmi tik dažādās jomās kā izklaide, mākslīgais intelekts un zinātniskā pētniecība. Izstrādātājiem un datu zinātniekiem Python ir kļuvis par spēcīgu rīku šim uzdevumam, piedāvājot stabilu bibliotēku ekosistēmu digitālajai signālu apstrādei (DSP).

Audio apstrādes pamatā ir divas viena otru papildinošas disciplīnas: skaņas analīze un skaņas sintēze. Tās ir digitālā audio iņ un jaņ:

Analīze ir dekonstrukcijas process. Tas ietver esoša audio signāla paņemšanu un tā sadalīšanu, lai iegūtu nozīmīgu informāciju. Tā atbild uz jautājumu: "No kā šī skaņa sastāv?"
Sintēze ir konstrukcijas process. Tas ietver audio signāla radīšanu no nulles, izmantojot matemātiskus modeļus un algoritmus. Tā atbild uz jautājumu: "Kā es varu radīt šo skaņu?"

Šis visaptverošais ceļvedis aizvedīs jūs ceļojumā cauri abām pasaulēm. Mēs izpētīsim teorētiskos pamatus, iepazīstināsim ar būtiskiem Python rīkiem un iziesim cauri praktiskiem koda piemēriem, kurus varēsiet paši palaist un pielāgot. Neatkarīgi no tā, vai esat datu zinātnieks, kurš vēlas analizēt audio iezīmes, mūziķis, kurš interesējas par algoritmisko kompozīciju, vai izstrādātājs, kurš veido nākamo lielisko audio lietojumprogrammu, šis raksts sniegs jums nepieciešamo pamatu, lai sāktu darbu.

1. daļa: Dekonstrukcijas māksla: Skaņas analīze ar Python

Skaņas analīze ir līdzīga detektīva darbam. Jums tiek dots pierādījums – audio fails – un jūsu uzdevums ir izmantot savus rīkus, lai atklātu tā noslēpumus. Kādas notis tika nospēlētas? Kas runāja? Kādā vidē skaņa tika ierakstīta? Šie ir jautājumi, uz kuriem skaņas analīze palīdz mums atbildēt.

Digitālā audio pamatjēdzieni

Pirms mēs varam analizēt skaņu, mums ir jāsaprot, kā tā tiek attēlota datorā. Analogs skaņas vilnis ir nepārtraukts signāls. Lai to saglabātu digitāli, mums tas jāpārveido procesā, ko sauc par diskretizāciju (sampling).

Diskretizācijas frekvence: Tas ir audio signāla paraugu (momentuzņēmumu) skaits, kas tiek ņemts sekundē. To mēra hercos (Hz). Izplatīta diskretizācijas frekvence mūzikai ir 44 100 Hz (44,1 kHz), kas nozīmē, ka katru sekundi tiek uzņemti 44 100 skaņas amplitūdas momentuzņēmumi.
Bitu dziļums: Tas nosaka katra parauga izšķirtspēju. Lielāks bitu dziļums nodrošina lielāku dinamisko diapazonu (atšķirību starp klusākajām un skaļākajām skaņām). 16 bitu dziļums ir standarts kompaktdiskiem.

Šī procesa rezultāts ir skaitļu secība, ko mēs varam attēlot kā viļņa formu.

Viļņa forma: Amplitūda un laiks

Visvienkāršākais audio attēlojums ir viļņa forma. Tas ir divdimensiju grafiks, kurā attēlota amplitūda (skaļums) attiecībā pret laiku. Aplūkojot viļņa formu, var gūt vispārēju priekšstatu par audio dinamiku, bet tas daudz nepasaka par tā tonālo saturu.

Spektrs: Frekvence un toņa augstums

Lai izprastu skaņas tonālās īpašības, mums jāpāriet no laika domēna (viļņa formas) uz frekvenču domēnu. To panāk, izmantojot algoritmu, ko sauc par ātro Furjē transformāciju (Fast Fourier Transform - FFT). FFT sadala viļņa formas segmentu tā sastāvdaļās – sinusa viļņos, katram ar noteiktu frekvenci un amplitūdu. Rezultāts ir spektrs – amplitūdas grafiks attiecībā pret frekvenci. Šis grafiks atklāj, kuras frekvences (vai toņu augstumi) ir sastopamas skaņā un cik stipras tās ir.

Tembrs: Skaņas "krāsa"

Kāpēc klavieres un ģitāra, spēlējot vienu un to pašu noti (vienu un to pašu pamatfrekvenci), skan tik atšķirīgi? Atbilde ir tembrs. Tembru nosaka harmoniku jeb virsstoņu – papildu frekvenču, kas ir pamatfrekvences vesela skaitļa reizinājumi – klātbūtne un intensitāte. Unikālā šo harmoniku kombinācija ir tas, kas piešķir instrumentam tā raksturīgo skaņas krāsu.

Būtiskākās Python bibliotēkas audio analīzei

Python spēks slēpjas tā plašajā trešo pušu bibliotēku kolekcijā. Audio analīzei izceļas dažas.

Librosa: Šī ir galvenā bibliotēka audio un mūzikas analīzei Python valodā. Tā nodrošina plašu rīku komplektu audio ielādei, vizualizēšanai un plaša spektra augsta līmeņa iezīmju, piemēram, tempa, toņa augstuma un hromatiskās reprezentācijas, iegūšanai.
SciPy: Būtiska bibliotēka zinātniskajā Python komplektācijā, SciPy satur spēcīgu `signal` moduli. Tā ir lieliska zemāka līmeņa DSP uzdevumiem, piemēram, filtrēšanai, Furjē transformācijām un darbam ar spektrogrammām. Tā arī nodrošina vienkāršu veidu, kā lasīt un rakstīt `.wav` failus.
pydub: Augsta līmeņa, vienkāršām manipulācijām `pydub` ir fantastiska. Tā ļauj griezt, savienot, pārklāt un piemērot vienkāršus efektus audio ar ļoti intuitīvu API. Tā ir lieliska priekšapstrādes uzdevumiem.
NumPy & Matplotlib: Lai arī nav specifiskas audio, tās ir neaizstājamas. NumPy nodrošina fundamentālo datu struktūru (N-dimensiju masīvu) audio datu glabāšanai, un Matplotlib ir standarts grafiku zīmēšanai un vizualizācijai.

Praktiskā analīze: No viļņa formām līdz atziņām

Ķersimies pie darba. Vispirms pārliecinieties, ka esat instalējis nepieciešamās bibliotēkas:

pip install librosa matplotlib numpy scipy

Jums būs nepieciešams arī audio fails, ar ko strādāt. Šajos piemēros pieņemsim, ka jums ir fails ar nosaukumu `audio_sample.wav`.

Audio ielāde un vizualizēšana

Mūsu pirmais solis vienmēr ir ielādēt audio datus NumPy masīvā. Librosa to padara neticami vienkāršu.


import librosa
import librosa.display
import matplotlib.pyplot as plt
import numpy as np

# Definējiet ceļu uz jūsu audio failu
file_path = 'audio_sample.wav'

# Ielādējiet audio failu
# y ir audio laika rinda (numpy masīvs)
# sr ir diskretizācijas frekvence
y, sr = librosa.load(file_path)

# Uzzīmējiet viļņa formu
plt.figure(figsize=(14, 5))
librosa.display.waveshow(y, sr=sr)
plt.title('Audio viļņa forma')
plt.xlabel('Laiks (s)')
plt.ylabel('Amplitūda')
plt.grid(True)
plt.show()

Šis kods ielādē jūsu audio failu un attēlo tā viļņa formu. Jūs varat nekavējoties redzēt ieraksta skaļākās un klusākās daļas laika gaitā.

Frekvenču satura atšifrēšana: Spektrogramma

Viļņa forma ir noderīga, bet spektrogramma sniedz mums daudz bagātīgāku skatu. Spektrogramma vizualizē signāla spektru, kā tas mainās laika gaitā. Horizontālā ass attēlo laiku, vertikālā ass attēlo frekvenci, un krāsa attēlo konkrētas frekvences amplitūdu konkrētā laikā.


# Aprēķiniet īsā laika Furjē transformāciju (STFT)
D = librosa.stft(y)

# Pārveidojiet amplitūdu decibelos (intuitīvāka skala)
DB = librosa.amplitude_to_db(np.abs(D), ref=np.max)

# Uzzīmējiet spektrogrammu
plt.figure(figsize=(14, 5))
librosa.display.specshow(DB, sr=sr, x_axis='time', y_axis='log')
plt.colorbar(format='%+2.0f dB')
plt.title('Logaritmiskās frekvences jaudas spektrogramma')
plt.show()

Ar spektrogrammu jūs burtiski varat redzēt notis mūzikas skaņdarbā, formantus cilvēka runā vai raksturīgo frekvenču signatūru mašīnas dūkoņai.

Nozīmīgu iezīmju iegūšana

Bieži vien mēs vēlamies sarežģītu audio signālu reducēt līdz dažiem skaitļiem vai vektoriem, kas raksturo tā galvenās īpašības. Tās sauc par iezīmēm, un tās ir mašīnmācīšanās modeļu dzīvības avots audio jomā.

Nulles šķērsošanas biežums (ZCR): Tas ir biežums, ar kādu signāls maina zīmi (no pozitīvas uz negatīvu vai otrādi). Augsts ZCR bieži norāda uz trokšņainām vai perkusīvām skaņām (piemēram, šķīvjiem vai statisku troksni), savukārt zems ZCR ir raksturīgs tonālām, melodiskām skaņām (piemēram, flautai vai dziedātam patskanim).


zcr = librosa.feature.zero_crossing_rate(y)
print(f"Vidējais nulles šķērsošanas biežums: {np.mean(zcr)}")

Spektrālais centroīds: Šī iezīme attēlo spektra "masas centru". Tas ir skaņas spilgtuma mērs. Augsts spektrālais centroīds norāda uz skaņu ar lielāku augstfrekvences saturu (piemēram, trompeti), savukārt zems norāda uz tumšāku skaņu (piemēram, čellu).


spectral_centroids = librosa.feature.spectral_centroid(y=y, sr=sr)[0]

# Spektrālā centroīda attēlošana laika gaitā
frames = range(len(spectral_centroids))
t = librosa.frames_to_time(frames, sr=sr)

plt.figure(figsize=(14, 5))
librosa.display.waveshow(y, sr=sr, alpha=0.4)
plt.plot(t, spectral_centroids, color='r') # Attēlot spektrālo centroīdu sarkanā krāsā
plt.title('Spektrālais centroīds')
plt.show()

Mel-frekvences kepstrālie koeficienti (MFCCs): Šī, iespējams, ir vissvarīgākā iezīme audio klasifikācijas uzdevumos, īpaši runas atpazīšanā un mūzikas žanru klasifikācijā. MFCC ir kompakts skaņas īstermiņa jaudas spektra attēlojums, kas balstīts uz logaritmiskā jaudas spektra lineāru kosinusa transformāciju nelineārā Mel frekvenču skalā. Tas izklausās sarežģīti, bet galvenā ideja ir tā, ka tie ir izstrādāti, lai modelētu cilvēka dzirdes uztveri, padarot tos ļoti efektīvus uzdevumos, kur ir vēlama cilvēkam līdzīga izpratne.


mfccs = librosa.feature.mfcc(y=y, sr=sr, n_mfcc=13)

# Vizualizējiet MFCC
plt.figure(figsize=(14, 5))
librosa.display.specshow(mfccs, sr=sr, x_axis='time')
plt.colorbar()
plt.title('MFCCs')
plt.show()

Toņa augstuma un tempa noteikšana

Librosa nodrošina arī augsta līmeņa funkcijas specifiskai mūzikas analīzei.

Tempa un ritma noteikšana: Mēs varam viegli novērtēt globālo tempu (sitienos minūtē) un atrast ritma sitienu pozīcijas audio ierakstā.


# Novērtējiet tempu un atrodiet ritma kadrus
tempo, beat_frames = librosa.beat.beat_track(y=y, sr=sr)
print(f'Aprēķinātais temps: {tempo:.2f} sitieni minūtē')

# Pārveidojiet ritma kadrus laikā
beat_times = librosa.frames_to_time(beat_frames, sr=sr)

Šis ir tikai aisberga virsotne. Librosa piedāvā desmitiem iezīmju ritma, harmonijas un tonalitātes analīzei, padarot to par neticami spēcīgu rīku Mūzikas informācijas izguvei (MIR).

2. daļa: Radīšanas meistarība: Skaņas sintēze ar Python

Ja analīze ir par lietu izjaukšanu, tad sintēze ir par to veidošanu no pašiem pamatiem. Ar Python jūs varat kļūt par digitālu vijolnieku, radot skaņas, kas nekad agrāk nav pastāvējušas, un to visu ar dažām koda rindiņām. Galvenā ideja ir ģenerēt NumPy masīvu ar vērtībām, kas, atskaņojot, rada jūsu izstrādāto skaņas vilni.

Sintēzes pamatmetodes

Ir daudz veidu, kā sintezēt skaņu, katram ar savu raksturu. Šeit ir dažas fundamentālas pieejas.

Aditīvā sintēze: Visvienkāršākā un intuitīvākā metode. Balstoties uz Furjē teorēmu, tā apgalvo, ka jebkuru sarežģītu periodisku viļņa formu var attēlot kā vienkāršu sinusa viļņu (harmoniku) summu. Saskaitot sinusa viļņus ar dažādām frekvencēm, amplitūdām un fāzēm, var izveidot neticami bagātīgus un sarežģītus tembrus.
Subtraktīvā sintēze: Šī ir aditīvās sintēzes pretstats. Jūs sākat ar harmoniski bagātu viļņa formu (piemēram, taisnstūra vilni vai zāģzoba vilni) un pēc tam izmantojat filtrus, lai izgrieztu jeb atņemtu frekvences. Tas ir pamats lielākajai daļai klasisko analogo sintezatoru.
Frekvenču modulācijas (FM) sintēze: Ļoti efektīva un spēcīga tehnika, kur viena oscilatora ("nesēja") frekvenci modulē ar cita oscilatora ("modulatora") izvadi. Tas var radīt ļoti sarežģītas, dinamiskas un bieži vien metāliskas vai zvanveidīgas skaņas.

Būtiskākās Python bibliotēkas audio sintēzei

Sintēzei mūsu rīku komplekts ir vienkāršāks, bet ne mazāk spēcīgs.

NumPy: Šis ir pats kodols. Mēs izmantosim NumPy, lai izveidotu un manipulētu ar skaitļu masīviem, kas attēlo mūsu skaņas viļņus. Tā matemātiskās funkcijas ir būtiskas, lai ģenerētu viļņu formas, piemēram, sinusa, taisnstūra un trīsstūra viļņus.
SciPy: Mēs izmantosim SciPy funkciju `scipy.io.wavfile.write`, lai saglabātu mūsu NumPy masīvus standarta `.wav` audio failos, kurus var atskaņot jebkurš multivides atskaņotājs.

Praktiskā sintēze: Skaņas radīšana no koda

Sāksim radīt skaņu. Pārliecinieties, ka jums ir gatavi SciPy un NumPy.

Tīra toņa (sinusa viļņa) ģenerēšana

Visvienkāršākā skaņa, ko varam radīt, ir tīrs tonis, kas ir vienkārši sinusa vilnis ar noteiktu frekvenci.


import numpy as np
from scipy.io.wavfile import write

# --- Sintēzes parametri ---
sr = 44100  # Diskretizācijas frekvence
duration = 3.0  # sekundes
frequency = 440.0  # Hz (A4 nots)

# Ģenerējiet laika masīvu
# Tas izveido skaitļu secību no 0 līdz 'duration', ar 'sr' punktiem sekundē
t = np.linspace(0., duration, int(sr * duration), endpoint=False)

# Ģenerējiet sinusa vilni
# Sinusa viļņa formula ir: amplitūda * sin(2 * pi * frekvence * laiks)
amplitude = np.iinfo(np.int16).max * 0.5 # Izmantojiet pusi no maksimālās 16 bitu veselā skaitļa vērtības
data = amplitude * np.sin(2. * np.pi * frequency * t)

# Pārveidojiet par 16 bitu datiem un ierakstiet .wav failā
write('sine_wave_440hz.wav', sr, data.astype(np.int16))

print("Fails 'sine_wave_440hz.wav' veiksmīgi ģenerēts.")

Ja palaidīsiet šo kodu, tas izveidos `.wav` failu tajā pašā direktorijā. Atveriet to, un jūs dzirdēsiet perfektu A4 noti!

Skaņas veidošana ar aploksnēm (ADSR)

Mūsu tīrais tonis ir nedaudz garlaicīgs; tas sākas un beidzas pēkšņi. Reālās pasaules skaņām ir dinamiska forma. Mēs to varam kontrolēt, izmantojot aploksni. Visizplatītākais veids ir ADSR aploksne:

Uzsākums (Attack): Laiks, kas nepieciešams, lai skaņa pieaugtu no nulles līdz maksimālajam līmenim.
Kritums (Decay): Laiks, kas nepieciešams, lai skaņa nokristu no maksimālā līdz noturēšanas līmenim.
Noturēšana (Sustain): Līmenis, kādā skaņa tiek turēta, kamēr nots ir aktīva.
Izskaņa (Release): Laiks, kas nepieciešams, lai skaņa izzustu līdz nullei pēc nots atlaišanas.

Pielietosim vienkāršu lineāru uzsākumu un izskaņu mūsu sinusa vilnim.


# --- Aploksnes parametri ---
attack_time = 0.1  # sekundes
release_time = 0.5 # sekundes

# Izveidojiet aploksni
attack_samples = int(sr * attack_time)
release_samples = int(sr * release_time)
sustain_samples = len(t) - attack_samples - release_samples

attack = np.linspace(0, 1, attack_samples)
# Vienkāršības labad izlaidīsim kritumu un iestatīsim noturēšanas līmeni uz 1
sustain = np.ones(sustain_samples)
release = np.linspace(1, 0, release_samples)

envelope = np.concatenate([attack, sustain, release])

# Pielietojiet aploksni mūsu sinusa viļņa datiem
enveloped_data = data * envelope

# Ierakstiet jauno skaņu failā
write('enveloped_sine_wave.wav', sr, enveloped_data.astype(np.int16))

print("Fails 'enveloped_sine_wave.wav' veiksmīgi ģenerēts.")

Šī jaunā skaņa vienmērīgi parādīsies un maigi izzudīs, padarot to daudz muzikālāku un dabiskāku.

Sarežģītības veidošana ar aditīvo sintēzi

Tagad radīsim bagātīgāku tembru, pievienojot harmonikas. Piemēram, taisnstūra vilnis sastāv no pamatfrekvences un visām tās nepāra harmonikām ar amplitūdām, kas proporcionāli samazinās. Mēģināsim to aptuveni izveidot.


# --- Aditīvā sintēze ---
fundamental_freq = 220.0 # A3 nots

# Sāciet ar pamata toni
final_wave = np.sin(2. * np.pi * fundamental_freq * t)

# Pievienojiet nepāra harmonikas
num_harmonics = 10
for i in range(3, num_harmonics * 2, 2):
    harmonic_freq = fundamental_freq * i
    harmonic_amplitude = 1.0 / i
    final_wave += harmonic_amplitude * np.sin(2. * np.pi * harmonic_freq * t)

# Normalizējiet vilni, lai novērstu kropļojumus (amplitūda > 1)
final_wave = final_wave / np.max(np.abs(final_wave))

# Pielietojiet mūsu iepriekšējo aploksni
rich_sound_data = (amplitude * final_wave) * envelope

# Ierakstiet failā
write('additive_synthesis_sound.wav', sr, rich_sound_data.astype(np.int16))

print("Fails 'additive_synthesis_sound.wav' veiksmīgi ģenerēts.")

Noklausieties šo jauno failu. Tas skanēs daudz bagātīgāk un sarežģītāk nekā vienkāršs sinusa vilnis, tuvojoties taisnstūra viļņa dūcošajai skaņai. Jūs tikko veicāt aditīvo sintēzi!

3. daļa: Simbiotiskās attiecības: Kur analīze un sintēze satiekas

Lai gan mēs esam aplūkojuši analīzi un sintēzi kā atsevišķas tēmas, to patiesais spēks atklājas, kad tās tiek izmantotas kopā. Tās veido atgriezeniskās saites cilpu, kurā izpratne veicina radīšanu, un radīšana nodrošina jaunu materiālu izpratnei.

Tilts starp pasaulēm: Resintēze

Viena no aizraujošākajām jomām, kur abas satiekas, ir resintēze. Process darbojas šādi:

Analizēt: Paņemt reālas pasaules skaņu (piemēram, vijoles ierakstu) un iegūt tās galvenās akustiskās iezīmes – harmonisko saturu, toņa augstuma svārstības, amplitūdas aploksni.
Modelēt: Izveidot matemātisku modeli, pamatojoties uz šīm iezīmēm.
Sintezēt: Izmantot savu sintēzes dzinēju, lai ģenerētu jaunu skaņu, pamatojoties uz šo modeli.

Tas ļauj jums izveidot ļoti reālistiskus sintētiskos instrumentus vai paņemt vienas skaņas īpašības un pielietot tās citai (piemēram, likt ģitārai skanēt tā, it kā tā "runātu", uzliekot tai cilvēka balss spektrālo aploksni).

Audio efektu veidošana

Praktiski visi digitālie audio efekti – reverbācija, aizture, kropļojums, horis – ir analīzes un sintēzes apvienojums.

Aizture/Atbalss: Šis ir vienkāršs process. Sistēma analizē ienākošo audio, saglabā to buferī (atmiņas daļā) un pēc tam sintezē to atpakaļ izvades straumē vēlākā laikā, bieži ar samazinātu amplitūdu.
Kropļojums: Šis efekts analizē ieejas signāla amplitūdu. Ja tā pārsniedz noteiktu slieksni, tas sintezē jaunu izvadi, pielietojot matemātisku funkciju ("waveshaper"), kas apgriež vai maina viļņa formu, pievienojot bagātīgas jaunas harmonikas.
Reverbācija: Tā simulē fiziskas telpas skaņu. Tas ir sarežģīts process, kurā tiek sintezēti tūkstošiem sīku, izzūdošu atbalsu (atstarojumu), kas tiek modelēti, pamatojoties uz reālas telpas akustisko īpašību analīzi.

Šīs sinerģijas pielietojumi reālajā pasaulē

Analīzes un sintēzes mijiedarbība veicina inovācijas visā nozarē:

Runas tehnoloģijas: Teksta-runas (TTS) sistēmas sintezē cilvēkam līdzīgu runu, bieži apmācītas, dziļi analizējot milzīgu daudzumu ierakstītas cilvēka runas. Savukārt automātiskās runas atpazīšanas (ASR) sistēmas analizē lietotāja balsi, lai to pārrakstītu tekstā.
Mūzikas informācijas izguve (MIR): Sistēmas, piemēram, Spotify, izmanto savu mūzikas katalogu dziļo analīzi, lai izprastu dziesmu iezīmes (tempu, žanru, noskaņu). Šo analīzi pēc tam var izmantot, lai sintezētu jaunus atskaņošanas sarakstus vai ieteiktu mūziku.
Ģeneratīvā māksla un mūzika: Mūsdienu mākslīgā intelekta modeļi var analizēt milzīgas mūzikas vai skaņu datu kopas un pēc tam sintezēt pilnīgi jaunus, oriģinālus skaņdarbus tajā pašā stilā. Tas ir tiešs "analizēt-un-tad-sintezēt" paradigmas pielietojums.
Spēļu audio: Progresīvi spēļu audio dzinēji sintezē skaņas reāllaikā. Tie var analizēt spēles fizikas dzinēju (piemēram, automašīnas ātrumu) un izmantot šos parametrus, lai sintezētu atbilstošu dzinēja skaņu, radot perfekti atsaucīgu un dinamisku audio pieredzi.

Noslēgums: Jūsu ceļojums digitālajā audio

Mēs esam ceļojuši no dekonstrukcijas līdz konstrukcijai, no skaņas izpratnes līdz tās radīšanai. Mēs esam redzējuši, ka skaņas analīze nodrošina rīkus, lai dziļi klausītos, kvantificētu audio īslaicīgās īpašības un pārvērstu tās datos. Mēs esam arī redzējuši, ka skaņas sintēze sniedz mums skaņu krāsu paleti, lai no nekā, izņemot matemātisku loģiku, veidotu jaunas skaņu pasaules.

Galvenā atziņa ir tā, ka šie nav pretēji spēki, bet gan vienas medaļas divas puses. Labākās audio lietojumprogrammas, visdziļākie pētījumi un radošākie mākslinieciskie centieni bieži atrodas šo divu jomu krustpunktā. Iezīmes, ko mēs iegūstam analīzes ceļā, kļūst par parametriem mūsu sintezatoriem. Skaņas, ko mēs radām ar sintezatoriem, kļūst par datiem mūsu analīzes modeļiem.

Ar Python un tā neticamo bibliotēku ekosistēmu, piemēram, Librosa, SciPy un NumPy, ieejas slieksnis šīs aizraujošās pasaules izpētei nekad nav bijis zemāks. Šajā rakstā sniegtie piemēri ir tikai sākumpunkts. Patiesā aizrautība sākas, kad jūs sākat apvienot šīs tehnikas, padodot vienas tehnikas rezultātu otras ievadē un uzdodot savus jautājumus par skaņas dabu.

Tātad, ielādējiet skaņu, kas jūs interesē. Analizējiet tās spektru. Mēģiniet sintezēt skaņu, kas to atdarina. Tūkstošiem skaņu ceļojums sākas ar vienu koda rindiņu.